Mạng nơ ron tích chập là gì? Các công bố khoa học về Mạng nơ ron tích chập

Mạng nơ-ron tích chập (CNNs) là một loại mạng nơ-ron nhân tạo, thiết kế để xử lý dữ liệu dạng lưới như hình ảnh. CNNs bao gồm các lớp: lớp tích chập trích xuất đặc trưng, lớp phi tuyến áp dụng hàm kích hoạt, lớp pooling giảm kích thước đặc trưng, và lớp kết nối đầy đủ dùng cho phân loại. CNNs tối ưu hóa bộ lọc qua huấn luyện, giúp thực hiện nhận diện hình ảnh, xử lý ngôn ngữ tự nhiên và thị giác máy tính. CNNs mang lại hiệu quả vượt trội trong nhiều ứng dụng nhờ khả năng học đặc trưng và tính toán nhanh chóng.

Giới thiệu về Mạng Nơ-ron Tích Chập (Convolutional Neural Networks - CNNs)

Mạng nơ-ron tích chập (CNNs) là một loại của mạng nơ-ron nhân tạo, được thiết kế đặc biệt để xử lý dữ liệu có dạng lưới, chẳng hạn như hình ảnh. CNNs đã trở thành một công cụ cực kỳ hiệu quả trong lĩnh vực xử lý ảnh, nhận dạng hình ảnh, và nhiều ứng dụng khác trong thị giác máy tính.

Cấu trúc của Mạng Nơ-ron Tích Chập

CNNs thường bao gồm một chuỗi các lớp khác nhau, mỗi lớp chịu trách nhiệm thực hiện một chức năng cụ thể:

  • Lớp tích chập (Convolutional Layer): Đây là lớp cốt lõi của CNNs, được sử dụng để trích xuất các đặc trưng từ dữ liệu đầu vào. Lớp này sử dụng các thuật toán tích chập để quét qua hình ảnh và phát hiện các đặc điểm như cạnh, góc, và nhiều chi tiết khác.
  • Lớp phi tuyến (Non-linearity Layer): Thường được thực hiện bằng hàm kích hoạt như ReLU (Rectified Linear Unit). Lớp này giúp mạng nơ-ron học được các mối quan hệ phi tuyến trong dữ liệu.
  • Lớp pooling (Pooling Layer): Lớp này giảm kích thước không gian của các đặc trưng đã trích xuất, giúp giảm lượng tính toán và kiểm soát hiện tượng overfitting.
  • Lớp kết nối đầy đủ (Fully Connected Layer): Trong lớp này, các nơ-ron được kết nối hoàn toàn với tất cả nơ-ron ở lớp trước. Đây thường là các lớp cuối cùng sử dụng để kết hợp các đặc trưng đã trích xuất và thực hiện phân loại.

Cơ chế Hoạt động của CNNs

CNNs học cách tối ưu hóa các bộ lọc thông qua quá trình huấn luyện. Bộ lọc bắt đầu bằng cách tạo ra các mẫu đầu vào ngẫu nhiên, sau đó thông qua quá trình ngược dòng (backpropagation) và tối ưu hóa trọng số, mạng học cách điều chỉnh bộ lọc để trích xuất các đặc điểm hữu ích nhất phục vụ cho tác vụ cụ thể.

Ứng dụng của Mạng Nơ-ron Tích Chập

Mạng CNN hiện nay đóng vai trò quan trọng trong nhiều lĩnh vực:

  • Nhận diện hình ảnh: CNNs được sử dụng rộng rãi trong các nhiệm vụ nhận dạng đối tượng, phân loại hình ảnh, và phát hiện khuôn mặt.
  • Xử lý ngôn ngữ tự nhiên (NLP): Các mô hình CNN cũng được áp dụng trong phân loại văn bản, phân loại ngữ nghĩa và các tác vụ khác trong NLP.
  • Thị giác máy tính: Trong ngành công nghiệp xe tự hành, CNN rất quan trọng trong xử lý hình ảnh từ camera gắn trên xe để phát hiện và phân tích cảnh quan đường đi, các vật thể xung quanh.

Kết luận

Mạng nơ-ron tích chập đã chứng minh hiệu quả mạnh mẽ trong nhiều ứng dụng khác nhau, đặc biệt là trong xử lý hình ảnh và thị giác máy tính. Với khả năng học đại diện đặc trưng mạnh mẽ và hiệu quả tính toán, CNN vẫn tiếp tục là một trong những lĩnh vực nghiên cứu nóng hổi và ứng dụng rộng rãi trong trí tuệ nhân tạo và học sâu.

Danh sách công bố khoa học về chủ đề "mạng nơ ron tích chập":

Phân loại ImageNet bằng mạng nơ-ron tích chập sâu Dịch bởi AI
Communications of the ACM - Tập 60 Số 6 - Trang 84-90 - 2017

Chúng tôi đã huấn luyện một mạng nơ-ron tích chập sâu lớn để phân loại 1,2 triệu hình ảnh độ phân giải cao trong cuộc thi ImageNet LSVRC-2010 thành 1000 lớp khác nhau. Trên dữ liệu kiểm tra, chúng tôi đạt được tỷ lệ lỗi top-1 và top-5 lần lượt là 37,5% và 17,0%, điều này tốt hơn nhiều so với công nghệ tiên tiến trước đó. Mạng nơ-ron có 60 triệu tham số và 650.000 nơ-ron, bao gồm năm lớp tích chập, một số lớp có kèm theo lớp max-pooling, và ba lớp liên kết hoàn toàn với softmax 1000 chiều cuối cùng. Để tăng tốc quá trình huấn luyện, chúng tôi đã sử dụng nơ-ron không bão hòa và một triển khai GPU rất hiệu quả của phép toán tích chập. Để giảm thiểu hiện tượng quá khớp trong các lớp liên kết hoàn toàn, chúng tôi đã áp dụng một phương pháp điều hòa được phát triển gần đây gọi là "dropout" và đã chứng tỏ rất hiệu quả. Chúng tôi cũng đã tham gia một biến thể của mô hình này trong cuộc thi ILSVRC-2012 và đạt được tỷ lệ lỗi kiểm tra top-5 chiến thắng là 15,3%, so với 26,2% đạt được bởi bài dự thi đứng thứ hai.

#ImageNet #mạng nơ-ron tích chập sâu #phân loại hình ảnh #quy tắc dropout #hiệu suất mạng nơ-ron
Mạng Nơ-ron Tích Chập Sâu và Nơ-ron Tái Kết Nối LSTM cho Nhận Diện Hoạt Động Đeo Được Đa Mô Đun Dịch bởi AI
Sensors - Tập 16 Số 1 - Trang 115

Nhận diện hoạt động con người (HAR) thường được giải quyết bằng cách sử dụng các đặc trưng kỹ thuật được thu thập thông qua các quy trình heuristics. Nghiên cứu hiện tại cho thấy rằng các mạng nơ-ron tích chập sâu (CNN) rất phù hợp để tự động hóa quá trình trích xuất đặc trưng từ các dữ liệu cảm biến thô. Tuy nhiên, các hoạt động của con người bao gồm các chuỗi chuyển động phức tạp, và việc nắm bắt động lực tạm thời này là rất quan trọng cho việc nhận diện hoạt động thành công. Dựa trên sự thành công gần đây của các mạng nơ-ron tái kết nối cho các lĩnh vực chuỗi thời gian, chúng tôi đề xuất một khung sâu tổng quát cho nhận diện hoạt động dựa trên các đơn vị tích chập và đơn vị LSTM, mà: (i) phù hợp cho các cảm biến đeo được đa mô đun; (ii) có khả năng thực hiện bố hợp cảm biến một cách tự nhiên; (iii) không yêu cầu kiến thức chuyên môn trong việc thiết kế các đặc trưng; và (iv) mô hình hóa một cách rõ ràng động lực tạm thời của các đặc trưng kích hoạt. Chúng tôi đánh giá khung của mình trên hai tập dữ liệu, một trong số đó đã được sử dụng trong một thách thức nhận diện hoạt động công cộng. Kết quả cho thấy khung của chúng tôi vượt trội hơn các mạng nơ-ron không có hồi tiếp đang cạnh tranh trên tập dữ liệu thách thức với mức trung bình 4%; vượt hơn một số kết quả đã báo cáo trước đây lên đến 9%. Kết quả của chúng tôi cho thấy rằng khung có thể được áp dụng cho các mô hình cảm biến đồng nhất, nhưng cũng có thể bố hợp các cảm biến đa mô đun để cải thiện hiệu suất. Chúng tôi xác định ảnh hưởng của các siêu tham số kiến trúc chủ chốt đối với hiệu suất nhằm cung cấp cái nhìn về việc tối ưu hóa chúng.

#Nhận diện hoạt động con người #mạng nơ-ron tích chập sâu #mạng nơ-ron hồi tiếp LSTM #cảm biến đeo được #xử lý đa mô đun
Phân loại COVID-19 trong hình ảnh X-quang ngực bằng mạng nơ-ron tích chập sâu DeTraC Dịch bởi AI
Springer Science and Business Media LLC - - 2021
Tóm tắt

Hình ảnh X-quang ngực là kỹ thuật chẩn đoán hình ảnh đầu tiên đóng vai trò quan trọng trong chẩn đoán bệnh COVID-19. Nhờ vào sự sẵn có cao của các tập dữ liệu hình ảnh được chú thích quy mô lớn, đã đạt được nhiều thành công lớn trong việc sử dụng mạng nơ-ron tích chập (CNN) cho nhận diện và phân loại hình ảnh. Tuy nhiên, do sự hạn chế về khả năng tiếp cận các hình ảnh y tế được chú thích, việc phân loại hình ảnh y tế vẫn là thách thức lớn nhất trong chẩn đoán y tế. Nhờ có học chuyển giao, một cơ chế hiệu quả có thể cung cấp giải pháp hứa hẹn bằng cách chuyển giao kiến thức từ các nhiệm vụ nhận diện đối tượng chung sang các nhiệm vụ đặc thù trong miền. Trong bài báo này, chúng tôi xác thực và giới thiệu một mạng CNN sâu, gọi là Phân tách, Chuyển giao và Tổng hợp (DeTraC), cho việc phân loại hình ảnh X-quang ngực bệnh COVID-19. DeTraC có thể xử lý bất kỳ sự bất thường nào trong tập dữ liệu hình ảnh bằng cách điều tra biên giới lớp của nó thông qua cơ chế phân tách lớp. Kết quả thực nghiệm cho thấy khả năng của DeTraC trong việc phát hiện các trường hợp COVID-19 từ một tập dữ liệu hình ảnh toàn diện được thu thập từ nhiều bệnh viện trên thế giới. Độ chính xác cao 93.1% (với độ nhạy 100%) đã được đạt được bởi DeTraC trong việc phát hiện hình ảnh X-quang COVID-19 từ các trường hợp bình thường và trường hợp hội chứng hô hấp cấp tính nặng.

#COVID-19 #X-quang ngực #mạng nơ-ron tích chập sâu #DeTraC #học chuyển giao
Chiết xuất Các Thủy Vực Đô Thị Từ Hình Ảnh Viễn Thám Độ Phân Giải Cao Sử Dụng Học Sâu Dịch bởi AI
MDPI AG - Tập 10 Số 5 - Trang 585

Thông tin chính xác về nước mặt đô thị là rất quan trọng để đánh giá vai trò của nó trong các dịch vụ hệ sinh thái đô thị trong bối cảnh tồn tại của con người và biến đổi khí hậu. Việc chiết xuất chính xác các thủy vực đô thị từ hình ảnh là có ý nghĩa lớn đối với quy hoạch đô thị và phát triển kinh tế - xã hội. Trong bài báo này, một kiến trúc học sâu mới được đề xuất cho việc chiết xuất các thủy vực đô thị từ hình ảnh viễn thám độ phân giải cao. Đầu tiên, một thuật toán phân cụm tuyến tính lặp đơn giản thích ứng được áp dụng để phân đoạn hình ảnh viễn thám thành các siêu điểm ảnh chất lượng cao. Sau đó, một kiến trúc mạng nơ-ron tích chập (CNN) mới được thiết kế để có thể chiết xuất các đặc trưng cấp cao hữu ích của các thủy vực từ dữ liệu đầu vào trong một bối cảnh đô thị phức tạp và đánh dấu siêu điểm ảnh là một trong hai loại: điểm ảnh có nước hoặc không có nước. Cuối cùng, một hình ảnh độ phân giải cao của các siêu điểm ảnh đã được chiết xuất nước được tạo ra. Kết quả thí nghiệm cho thấy phương pháp được đề xuất đạt được độ chính xác cao hơn trong việc chiết xuất nước từ các hình ảnh viễn thám độ phân giải cao so với các phương pháp truyền thống, và độ chính xác tổng thể trung bình đạt 99,14%.

#viễn thám #chiết xuất nước #học sâu #mạng nơ-ron tích chập #phân đoạn hình ảnh
Học chuyển giao cho phân loại hình ảnh y tế: một bài tổng quan tài liệu Dịch bởi AI
BMC Medical Imaging - - 2022
Tóm tắtĐặt vấn đề

Học chuyển giao (TL) với mạng nơ-ron tích chập nhằm cải thiện hiệu suất trên một nhiệm vụ mới bằng cách tận dụng kiến thức từ các nhiệm vụ tương tự đã học trước đó. Nó đã đóng góp lớn cho phân tích hình ảnh y tế vì vượt qua vấn đề thiếu dữ liệu và tiết kiệm thời gian cũng như tài nguyên phần cứng. Tuy nhiên, học chuyển giao đã được cấu hình một cách tùy tiện trong phần lớn các nghiên cứu. Bài báo tổng quan này cố gắng cung cấp hướng dẫn cho việc chọn lựa mô hình và các phương pháp TL cho nhiệm vụ phân loại hình ảnh y tế.

Phương pháp

425 bài báo đã được đánh giá đồng nghiệp được thu thập từ hai cơ sở dữ liệu, PubMed và Web of Science, được xuất bản bằng tiếng Anh, cho đến ngày 31 tháng 12 năm 2020. Các bài báo được đánh giá bởi hai nhà nghiên cứu độc lập, với sự hỗ trợ của một nhà nghiên cứu thứ ba trong trường hợp có bất đồng. Chúng tôi đã tuân theo hướng dẫn PRISMA để chọn bài báo và 121 nghiên cứu được coi là đủ điều kiện cho phạm vi của bài tổng quan này. Chúng tôi đã khảo sát các bài báo tập trung vào việc chọn lựa các mô hình nền tảng và các phương pháp TL bao gồm bộ trích xuất đặc trưng, bộ trích xuất đặc trưng kết hợp, tinh chỉnh và tinh chỉnh từ đầu.

#Học chuyển giao #mạng nơ-ron tích chập #phân loại hình ảnh y tế #mô hình trích xuất đặc trưng
Đếm bông lúa mì bằng cách phân đoạn K-means clustering và mạng nơ-ron tích chập Dịch bởi AI
Plant Methods - - 2020
Tóm tắt Thông tin nền

Năng suất lúa mì bị ảnh hưởng bởi số lượng bông trên mỗi đơn vị diện tích, và phương pháp đếm thủ công từ lâu đã được sử dụng để ước lượng năng suất lúa mì. Để hiện thực hóa việc đếm bông lúa mì nhanh chóng và chính xác, phương pháp phân cụm K-means đã được áp dụng cho việc phân đoạn tự động hình ảnh bông lúa mì được ghi lại bằng các thiết bị cầm tay. Tập dữ liệu phân đoạn được xây dựng bằng cách tạo bốn thể loại nhãn hình ảnh: không phải bông lúa mì, một bông lúa mì, hai bông lúa mì và ba bông lúa mì, sau đó đã được đưa vào mô hình mạng nơ-ron tích chập (CNN) để đào tạo và kiểm tra nhằm giảm độ phức tạp của mô hình.

Kết quả

Độ chính xác nhận diện của không phải bông lúa mì, một bông lúa mì, hai bông lúa mì và ba bông lúa mì lần lượt là 99.8%, 97.5%, 98.07% và 98.5%. Mô hình R2 đạt 0.96, sai số bình phương gốc trung bình (RMSE) là 10.84 bông, điểm số F1 vi mô và F1 vĩ mô đều đạt 98.47%, và hiệu suất tốt nhất được quan sát thấy trong giai đoạn căng hạt cuối (R2 = 0.99, RMSE = 3.24 bông). Mô hình cũng có thể được áp dụng cho nền tảng UAV (R2 = 0.97, RMSE = 9.47 bông).

Kết luận

Việc phân loại hình ảnh đã phân đoạn thay vì nhận diện mục tiêu không chỉ giảm khối lượng công việc ghi chú thủ công mà còn cải thiện đáng kể hiệu quả và độ chính xác của việc đếm bông lúa mì, từ đó đáp ứng yêu cầu ước lượng năng suất lúa mì trong môi trường thực địa.

Phân đoạn khối u não sử dụng mạng nơ-ron tích chập hoàn toàn dựa trên U-Net và cây cực kỳ phân loại ngẫu nhiên Dịch bởi AI
Vietnam Journal of Science, Technology and Engineering - Tập 60 Số 3 - Trang 19-25 - 2018
Trong bài báo này, chúng tôi trình bày một phương pháp học dựa trên mô hình cho việc phân đoạn khối u não từ các giao thức MRI đa mô hình. Mô hình sử dụng mạng nơ-ron tích chập hoàn toàn dựa trên U-Net để trích xuất các đặc trưng từ tập dữ liệu huấn luyện MRI đa mô hình và sau đó áp dụng chúng cho bộ phân loại cây cực kỳ phân loại ngẫu nhiên (ExtraTrees) để phân đoạn các mô tế bào bất thường liên quan đến khối u não. Các bộ lọc hình thái sau đó được sử dụng để loại bỏ các nhãn bị phân loại sai. Phương pháp của chúng tôi đã được đánh giá trên tập dữ liệu Thử thách Phân đoạn Khối u Não 2013 (BRATS 2013), đạt được chỉ số Dice lần lượt là 0.85, 0.81 và 0.72 cho khối u toàn bộ, lõi khối u và lõi khối u tăng cường. Kết quả phân đoạn thu được đã được so sánh với các phương pháp gần đây nhất, cung cấp hiệu suất cạnh tranh.
#brain tumour #convolutional neural network #extremely randomized trees #segmentation #U-Net
Nhận dạng khuôn mặt trong video bằng mạng nơ ron tích chập
Deep Learning là thuật toán dựa trên một số ý tưởng từ não bộ tới việc tiếp thu nhiều tầng biểu đạt, cả cụ thể lẫn trừu tượng, qua đó làm rõ nghĩa của các loại dữ liệu. Deep Learning được ứng dụng trong nhận diện hình ảnh, nhận diện giọng nói, xử lý ngôn ngữ tự nhiên. Hiện nay rất nhiều các bài toán nhận dạng sử dụng Deep Learning, vì nó có thể giải quyết các bài toán với số lượng lớn các biến, tham số kích thước đầu vào lớn với hiệu năng cũng như độ chính xác vượt trội so với các phương pháp phân lớp truyền thống, xây dựng những hệ thống thông minh với độ chính xác cao. Trong bài báo này, các tác giả nghiên cứu mạng nơ ron tích chập (CNN - Convolutional Neural Network) là một trong những mô hình Deep Learning tiên tiến cho bài toán nhận dạng khuôn mặt từ video.
#mạng nơ ron học sâu #mạng nơ ron tích chập #nhận dạng khuôn mặt
PHÁT HIỆN CHÁY RỪNG BẰNG MẠNG NƠ RON HỌC SÂU, DỰA TRÊN KHÓI VÀ LỬA THU NHẬN ĐƯỢC TỪ CAMERA GIÁM SÁT
Tạp chí khoa học và công nghệ - Tập 26 - Trang 92-99 - 2020
Mạng nơ ron học sâu được ứng dụng trong nhận diện hình ảnh, nhận diện giọng nói, xử lý ngôn ngữ tự nhiên. Hiện nay rất nhiều các bài toán nhận dạng sử dụng mạng nơ ron học sâu, vì nó có thể giải quyết các bài toán với số lượng lớn các biến, tham số kích thước đầu vào lớn với hiệu năng cũng như độ chính xác vượt trội so với các phương pháp phân lớp truyền thống, xây dựng những hệ thống thông minh với độ chính xác cao. Trong bài báo này, các tác giả nghiên cứu mạng nơ ron học sâu (CNN - Convolutional Neural Network)[1] cho bài toán phát hiện lửa cũng như khói bằng việc xử lí dữ liệu từ camera giám sát nhằm phát hiện, cảnh báo cháy rừng.
#Mạng nơ ron học sâu #mạng nơ ron tích chập #phát hiện cháy rừng
Mạng nơ-ron tích chập cho việc kiểm soát chất lượng hình ảnh tự động và tính tuân thủ EARL của hình ảnh PET Dịch bởi AI
EJNMMI Physics -
Tóm tắt Nền tảng

Các nghiên cứu học máy đòi hỏi một số lượng lớn hình ảnh thường được thu thập trên các máy quét PET khác nhau. Khi kết hợp các hình ảnh này, việc sử dụng hình ảnh hài hòa theo tiêu chuẩn EARL là điều cần thiết. Tuy nhiên, khi bao gồm các hình ảnh hồi cứu, việc cấp chứng chỉ EARL có thể chưa được thực hiện. Mục tiêu của nghiên cứu này là phát triển một mạng nơ-ron tích chập (CNN) có khả năng xác định liệu một hình ảnh có tuân thủ EARL hay không và liệu nó có đáp ứng các tiêu chuẩn EARL cũ hơn hay mới hơn.

#Machine Learning #Hình ảnh PET #EARL #Mạng nơ-ron tích chập #Kiểm soát chất lượng hình ảnh
Tổng số: 142   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10